行业洞察|张霄军:伦理视角下,机器翻译的能与不能
The following article is from 舜禹环球通Transphere Author 张霄军
思想是一切的答案,
我们是奔赴未知的探索者。
译界前沿/第三期
不惮细碎、踮起脚尖、贤者云集——舜禹有幸邀请到了业内不同身份的人物,将他们的思考付诸文字。
希望这里能够成为连接语言人的一方仰望星空之地,立足前沿并保持深度,包容并蓄且去伪存真。我们在此驻足,聆听君子之声,擦拭初心,而后整顿前行。
往期链接:
▲韩林涛:如何写出既符合学术规范又满足企业所需的MTI论文?
张霄军博士
计算语言学家、机器翻译专家
现任西交利物浦大学翻译系教师、博士生导师,英国利物浦大学荣誉讲师,兼任国际计算语言学学会职业伦理委员会委员、世界翻译教育联盟翻译技术教育研究会副会长。曾任英国斯特林大学翻译课程主管(2016-2018)、爱尔兰都柏林城市大学机器翻译博士后研究员(2013-2016)、英国曼彻斯特大学访问学者(2010-2011)等。
近日,舜禹翻译技术部经理王璐就前段时间引发社会热议的谷歌机器翻译结果异常问题采访了张霄军博士,请他从机器翻译的工程伦理角度评论下此问题。
张博士表示:
该问题主要表现为:当在谷歌翻译源语对话框选择语言为“英语”但输入中文某些中文词汇、且在其目标语对话框选择语言为“中文(简体)”时,输出结果极不合理。不过,谷歌迅速声称问题已经“解决”了,并且言之凿凿“Google翻译是一个自动翻译器,通过数百万已有的翻译模式为用户找到最佳翻译,但是,有些模式会导致翻译的错误。”一时间舆论哗然,谷歌到底是夹带私货“辱华”还是训练语料“背锅”,众说纷纭。但随着问题的快速“解决”,这样的问题再也无法复现,谷歌“翻译风波”似乎就这么不了了之了。
▲截图来自网络
一种叫“词替换(word replacement)”的数据增强方法,有可能会产生上述讹误。词替换是将双语语料中的部分词替换为词表中的其他词。通过替换词,在保证句子语义或者语法正确的前提下,将替换以后的句对添加到训练语料中去,可以增加训练语料的多样性。可以替换源语言中的词,也可以替换目标语言中的词;可以替换常用词,也可以替换稀有词;可以“刻意”替换,也可以随机替换;可以替换掉一个词,也可以丢弃这个词或者用掩码屏蔽该词;可以用词表中的其他词替换,也可以用本句中的其他词替换。词替换方法的本质是对原始双语训练语料进行修改,得到加了噪声以后的伪双语训练语料,以上词替换方式都是对原始语料进行加噪处理。在神经网络机器翻译中,通过加噪进行数据增强的常用方法是:在保证句子整体语义不变的情况下,对原始的双语语料适当加入一些噪声,从而生成伪双语语料来增加原始训练语料的规模。从形式上来看,谷歌翻译极有可能是在加噪进行词替换过程中加入了一些不合时宜的噪声。问题是,这些“不合时宜的词”是怎么产生的?是“刻意”加入的还是随机加入的?
此外,如果给译词出现在源语端给出一个合理的技术解释的话,那可能还使用了另外一种数据增强方法——“回译(back-translation)”。即利用目标语-源语翻译模型(反向翻译模型)生成伪双语句对,用于训练源语-目标语翻译模型(正向翻译模型),通过将目标语言句子复制到源语言端构造出伪训练语料能够提升机器翻译的性能。译词出现在源语端的问题可能在此环节引入。叠加上“词替换”技术引入的错误,系统发布前又不进行严格测试的话,就会出现前文提到的翻译问题。可是,这种“神”操作是谷歌翻译“刻意为之”的还是真如它们所解释的“模式”出错呢?这会涉及到技术的伦理问题。 2018年6月7日,谷歌发布了七条人工智能应用的“伦理原则”,其中第二条就是“避免制造或者强加不公平的偏见(avoid creating or reinforcing unfair bias)”(https://ai.google/principles)。很遗憾,自己制定的原则自己都没有遵守。基于谷歌的七条原则和欧盟发布的《可信赖人工智能的伦理准则》,我提出了可信赖的机器翻译系统的七个原则(拙文全文见《外国语文》2021年第1期),其中提到“用于机器翻译系统训练和测试所用的数据不会被用来伤害或者歧视数据的所有者和用户,同时要确保收集的数据不会用于非法地或不公平地歧视用户的行为”(私密性原则),“在机器翻译系统会对人类的生活造成重大影响时,需要机器翻译系统的决策过程有一个合理的解释”(可解释性原则),“数据集的歧视可能会造成机器翻译系统的针对特定人群或个人的歧视”(公平性原则)。谷歌翻译至少违反了以上三个原则,这不是一句“目前问题已经解决”就能服众的。
数据污染有时候并不仅仅是纯粹技术手段可以解决的,一些场景下需要通过管理工具、甚至是司法工具来解决问题。谷歌翻译的训练数据污染问题是技术问题还是伦理问题还是二者兼而有之,建议可以由“中国人工智能学会AI伦理工作委员会(筹)”牵头组织机器翻译专家和人工智能伦理专家对其进行调查,要求其公开其算法和数据,复现其实验方法(可复现性原则),还天下以大白。
资讯推荐
翻译技术的概念
- END -
转载来源:舜禹环球通Transphere公众号
转载编辑:王琳
审核:陈杲 李丹平
▶ 技术与工具
▶ 专访
▶ 实践答疑
Trados扫盲贴:90%计算机辅助翻译初学者都会陷入的误区
▶ 行业洞察
▶ 教育创新